Przeczytaj tabelę w dokumencie

Ten przykład kodu pokazuje, jak używać IronTesseract silnika OCR do wyodrębniania tekstu i danych tabelarycznych z dokumentu PDF.

  1. Tworzone jest wystąpienie silnika OCR IronTesseract.
  2. Zostaje zainicjalizowany obiekt OcrInput, a plik PDF ("table.pdf") jest ładowany za pomocą metody LoadPdf.
  3. Silnik OCR przetwarza dokument za pomocą metody ReadDocumentAdvanced, która zwraca bardziej szczegółowy obiekt OcrResult.
  4. Pierwsza tabela znaleziona w dokumencie jest dostępna poprzez result.Tables.First(), a informacje o komórkach tej tabeli są wyodrębniane za pomocą CellInfos.
  5. Lista danych komórek (cellList) zawiera teraz komórki tabeli, w tym zawartość tekstową i inne szczegóły (np. pozycja komórki, rozmiar).
  6. Ta metoda jest przydatna do wyodrębniania danych strukturalnych, takich jak tabele z plików PDF, co pozwala na programowe uzyskanie dostępu do tekstu w każdej komórce tabeli i jego przetwarzanie.

Poznaj, jak czytać tabele w plikach PDF za pomocą IronOCR.

Gotowy, aby rozpocząć?
Nuget Pliki do pobrania 5,571,678 | Wersja: 2026.4 just released
Still Scrolling Icon

Wciąż przewijasz?

Czy chcesz szybko dowodu? PM > Install-Package IronOcr
uruchom próbkę obserwuj, jak twój obraz staje się tekstem z możliwością wyszukiwania.